提供者:刘晓
地址:http://kdd.ics.uci.edu/databases/kddcup98/kddcup98.html
简介
这是用于第二届国际知识发现和数据挖掘工具竞赛的数据集,该竞赛是与KDD-98第四届知识发现和数据挖掘国际会议共同举办的。竞争任务是一个回归问题,其目标是估计直接邮寄的回报以最大化捐赠利润。
使用说明
KDD-CUP-98数据集和随附的文件现在可用于一般用途,但有以下限制:
- 数据的使用者必须通知Ismail Parsa(iparsa@epsilon.com)和Ken Howes(khowes@epsilon.com),以便他们从数据中生成结果,图表或表格等,并发送包含摘要的注释的最终结果。
- 使用KDD-Cup-98数据集的已发表和/或未发表文章的作者还必须通知上述个人,并发送其已发表和/或未发表的作品的副本。
- 如果您打算将此数据集用于培训或教育目的,您不得向学员或学生透露赞助商PVA(美国瘫痪退伍军人)的名称。你被允许说“一个国家退伍军人组织”…… 有关KDD杯的更多信息(包括参与者名单和结果),请访问KDD-Cup-98网页:http://www.epsilon.com/new。在那里,向下滚动到Data Mining Presentations,您将在其中找到KDD-Cup-98网页。
文件信息
- readme. 该列表列出了FTP服务器中的文件及其内容
- instruct.txt. 比赛的一般说明。
- cup98doc.txt. 这个文件,是概述和指向关于比赛更详细的信息。
- cup98dic.txt. 数据字典伴随分析数据集。
- cup98que.txt. KDD-CUP问卷。参与者需要填写调查表并交出结果。
- valtargt.readme. 介绍valtargt.txt文件。
数据集
- cup98lrn.zip PKZIP压缩原始LEARNING数据集。(36.5M;未压缩117.2M)
- cup98val.zip PKZIP压缩的原始VALIDATION数据集。 (36.8M;未压缩的117.9M)
- cup98lrn.txt.Z UNIX COMPRESS原始学习数据集。 (36.6M;未压缩的117.2M)
- cup98val.txt.Z UNIX COMPRESS原始验证数据集。 (36.9M;未压缩117.9M)
- valtargt.txt 此文件包含已发送给KDD CUP 98参与者的验证数据集中的目标字段。 (1.1M)
相关论文
[1] M Tavallaee,E Bagheri,L Wei,AA Ghorbani. A detailed analysis of the KDD CUP 99 data set. 2009.
[2] NV Chawla,A Lazarevic,LO Hall, KW Bowyer. SMOTEBoost: Improving Prediction of the Minority Class in Boosting. 2003.
[3] Z Dou,R Song,JR Wen. A large-scale evaluation and analysis of personalized search strategies. 2007.